在现实世界设置下自动发现视觉模型中的故障仍然是一个开放的挑战。这项工作说明了如何利用大量数据培训的现成,大规模,图像到文本和文本对象模型如何自动找到此类故障。本质上,有条件的文本到图像生成模型用于生成大量的合成,但现实的输入,给定了地面真相标签。错误分类的输入是聚类的,并使用字幕模型来描述每个群集。每个集群的描述依次使用来生成更多的输入,并评估特定簇是否会导致比预期更多的故障。我们使用该管道来证明我们可以有效地询问在Imagenet上训练的分类器以找到特定的故障案例并发现虚假相关性。我们还表明,我们可以扩展针对特定分类器体系结构的对抗数据集的方法。这项工作是概念验证,证明了大规模生成模型的实用性,以开放式方式自动发现视觉模型中的错误。我们还描述了与这种方法相关的许多局限性和陷阱。
translated by 谷歌翻译